Stable Diffusionは3次元空間を理解している
https://gyazo.com/f363a66a03c296a0ea824269a6deef63
https://yc015.github.io/scene-representation-diffusion-model/Project
https://arxiv.org/abs/2306.05720Beyond Surface Statistics: Scene Representations in a Latent Diffusion Model
Stable Diffusionは深度情報などは与えず、二次元画像だけで学習させたにも関わらず3Dジオメトリに関する線形表現を持っていることが分かった
linear probingを使った検証
https://gyazo.com/a13e954da718851c443329f39bf3d3ff
Text-to-Image Generation with Interventionによる検証
https://gyazo.com/41acb3e6f93be44b92d1ac019cdc4230
通常の画像生成(上部)でlinear probingで前景マップ(db)を取得
(db)を使用して中間活性化を変更し、ピクセルの前景と背景のプロパティが新しい前景マップd’bに一致するように変更する
GANも同様の能力をもっていることはすでに示されているらしい
https://gwern.net/face#suzuki-et-al-2018